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[目的 ] 本 研究 旨 在 提出 一 种 基于 词 和 词性 的 联合 文本 生成 模型 ， 以 提高 生成 文本 的 质量 。 

[方法 ] 该 模型 由 两 个 预 训练 的 文本 生成 模型 组 成 ， 一 个 是 基于 词 的 模型 ， 另 一 个 是 基于 词 

性 的 模型 。 此 外 ， 本 文 还 提出 并 使 用 了 BERT 模型 对 进行 二 分 类 任务 ， 以 判断 文本 
生成 效果 。 

[结果 ] 在 三 个 数据 集 上 的 实验 结果 表明 ， 与 传统 的 GPT 模型 相 比 ，GPT-WP 模型 生成 文本 
的 质量 有 明显 提升 。 

[局 限 ] BERT 模型 在 二 分 类 任务 中 参数 较 大 ， 大 规模 数据 训练 下 评价 效果 差 ， 本 文 提 出 的 
模型 在 数据 量 较 小 的 场景 下 表现 较 好 ， 大 规模 数据 表现 差异 缩小 。 

[结论 ] GPT-WP 模型 在 本 文 提出 的 评价 方法 下 表明 其 能 够 有 效 地 提高 生成 文本 的 质量 ， 对 
于 自然 语言 生成 任务 的 改进 和 评估 提供 了 参考 。 
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Abstract: 

[Objective] This study aims to propose a joint text generation model based on 
words and lexicality to improve the quality of generated text 

[Methods] The model consists of two pre-trained text generation models, one is 

a word-based model and the other is a lexical-based model. In addition, the 

BERT model is proposed and used in this paper for performing a dichotomous 

classification task to judge the text generation effect 

[Results] Experimental results on three datasets show that the GPT-WP model 

generates text with significantly higher quality compared to the traditional 

GPT model. 

[Limitations] The BERT model has larger parameters in the binary classification 

task and is poorly evaluated under large-scale data training. The model 

proposed in this paper performs better in scenarios with smaller amounts of 

data, and the difference in performance is reduced for large-scale data. 

[Conclusions] The GPT-WP model is shown to be effective in improving the 

quality of generated text under the evaluation method proposed in this paper, 

which provides a reference for the improvement and evaluation of natural 

language generation tasks. 
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近年 来 , 随 着 深度 学 习 和 自然 语言 处 理 技术 的 飞速 发 展 , 文本 生成 模型 已 经 
引起 了 广泛 的 关注 和 研究 , 例如 文章 生成 、 诗 词 创作 、 新 闻 自 动 编写 ”"、 智 能 
对 话 系 统 " 等 。 相 比 基 于 规则 的 文本 生成 技术 ”， 基 于 深度 学 习 的 文本 生成 模型 
具备 更 多 的 技术 优势 ,但 也 有 更 多 的 挑战 ， 深 度 学 习 生 成 模型 需要 解决 上 下 文 信 
息 长 距离 依赖 的 问题 ”语义 的 连贯 性 "和 多 样 性 问题 * 等 。 目前 , 文本 生成 模型 
的 研究 主要 集中 在 如 何 从 复杂 的 上 下 文 和 文本 数据 中 提取 有 效 的 语义 信息 并 用 
于 生成 新 的 文本 。 

最 新 的 文本 生成 方法 多 关注 于 序列 学 习 、 语义 理解 及 上 下 文 关系 推理 等 。 例 
W, Sutskever 等 人 利用 深度 神经 网 络 ”(DNN) 对 文本 生成 中 的 序列 学 习 进 行 建 模 ， 
但 是 这 类 方法 存在 长 距离 信息 传递 的 梯度 消失 和 梯度 爆炸 问题 。Vaswani 等 人 构 
建 的 Transformer 模型 采用 Encoder-Decoder 结构 ， 相 较 于 前 述 模 型 ， 其 在 文 
本 生成 方面 表现 更 加 优异 。 

目前 主流 的 文本 生成 模型 广泛 采用 基于 Transformer 模型 的 Encoder 和 
Decoder 分 别 构建 的 GPT 模型 ”和 BERT 模型 ”， 其 对 文本 进行 分 词 处 理 ， 以 词 
为 单位 对 文本 进行 训练 ， 并 在 生成 任务 中 以 token 为 单位 输出 单词 或 标点 符号 。 

本 文 认 为 ， 目 前 的 文本 生成 模型 研究 中 ,在 提升 模型 规模 的 同时 ， 可 以 通过 
对 语法 结构 的 学 习 与 调控 ， 实 现 对 文本 生成 模型 的 优化 ， 使 其 在 较 小 的 模型 下 ， 
实现 较 好 的 文本 生成 结果 。 本 文 基于 GPT 模型 开发 了 一 种 采用 两 个 GPT 模型 进行 
联合 预测 的 新 模型 GPT-WP (Generative Pre-trained Transformer for Word 
and Part of speech)， 着 重 对 文本 中 词性 的 部 分 进行 处 理 ， 采 用 一 个 参数 量 较 
小 的 模型 对 词性 规律 进行 学 习 ， 另 一 个 参数 量 较 大 的 模型 对 词 进 行 学 习 ， 并 采用 
两 个 模型 联合 预测 以 改善 生成 结果 , 使 生成 文本 具备 更 好 的 语法 结构 ， 更 加 贴近 
人 类 撰写 文本 的 语法 规律 。 

2 ”相关 工作 
2.1 LSTM 

长 短期 记忆 (ST) 是 循环 神经 网 络 (RNN) 的 一 种 ， 则 在 解决 梯度 消失 的 
问题 。LSTM 能 够 有 选择 地 更 新 或 丢弃 记忆 中 的 信息 ， 以 使 其 具备 不 受 梯度 消失 
影响 的 能 力 。LSTM 和 传统 的 RNN 之 间 的 主要 区 别 是 增加 了 一 个 记忆 单元 ， 其 负 
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1 LSTM 结构 图 


责 存储 信息 “。 这 个 记忆 单元 由 三 个 门 控制 : 输入 门 、 遗 态 门 和 输出 门 。 输 入 门 
决定 记忆 单元 添加 的 信息 , 遗忘 门 决定 从 记忆 单元 中 丢弃 的 信息 , 输出 门 决定 从 
记忆 单元 中 输出 的 信息 。LSTM 的 结构 图 ， 如 图 1 所 示 。 

输出 Ct_1 为 上 一 神经 元 传递 的 记忆 信息 ，hs_1 为 上 一 神经 元 传递 的 状态 信息 ， 
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Xi 为 传 入 的 数据 , 输出 为 本 神经 元 的 记忆 信息 Ct 和 状态 信息 hh 并 将 其 传递 给 下 一 
神经 元 ， 其 中 的 公式 如 下 : 


ip = o(Wixxt + Winhe-1 + bi) (1) 

fe = o(Wexxe + Wenhes + bp) (2) 

ct = OC, + i © tanh(Wxx; + Wonht-1 + be) (3) 
of = S(W, „x; + Wonht-1 + Do) (4) 

h; = or © tanh(c;) (5) 


LSTM 模型 很 难 解释 门 和 存储 单元 的 行为 ， 这 种 不 可 解释 性 使 调试 和 改进 模 
型 的 难度 增 大 。 此 外 ,LSTM 的 训练 计算 成 本 很 高 ， 其 成 本 随 数据 集 规 模 增 大 而 增 
加 。 


LSTM 模型 很 难 解释 门 和 存储 单元 的 行为 ， 这 种 不 可 解释 性 使 调试 和 改进 模 
型 的 难度 增 大 。 此 外 , LSTM 的 训练 计算 成 本 很 高 ， 其 成 本 随 数据 集 规 模 增 大 而 增 
加 。 
2.1 Transformer 

Transformer 最 初 是 由 Vaswani 等 人 在 2017 年 的 开创 性 论文 “Attention Is 
All You Need” PHHH”. Transformer 最 初 是 为 机 器 翻译 任务 设计 的 ， 但 目 

前 已 广泛 应 用 于 各 种 自然 语言 处 理 任务 ， 包 括 语言 建 模 、 问 题 回答 和 总 结 等 。 

Transformer 基于 自 注意 力 机 制 并 行 处 理 输入 ， 颠覆 了 传统 的 递归 神经 网 络 
"(RNN〉 和 卷 积 神经 网 络 ” CONN) 中 顺序 处 理 的 方式 。 自 注意 力 机 制 通过 计 
算 所 有 输入 标记 对 之 间 的 权重 , 来 衡量 每 个 标记 对 网 络 输出 的 贡献 ， 从 而 捕捉 标 
记 之 间 的 关系 ， 相 比 RNN 和 CNN 能 更 有 效 地 模拟 长 距离 依赖 关系 。 


Softmax 


inear 


| 


2 Add & Norm | Add & Norm je 
"Feed | Multi-Head | 
Forward Attention p | 
4 4 4 4 
ma. Add 8 Norm | Add & Norm 一 
Multi-Head | ( Masked 
Attention | Multi-Head | 
下 \ Attention J 
Posit 1 E / T (PV Positiona 
Encoding ay, W VD V j Encoding 
( Input | Output 
Embedding | Embedding | 
a 
Out; j 


不 
| 


图 2 Transformer 结构 图 
Transformer 由 一 个 编码 器 和 一 个 解码 器 组 成 ,每 个 编码 器 包含 一 个 自 注意 
力 层 和 一 个 前 馈 层 。 编 码 器 处 理 输 入 序列 并 产生 一 个 隐藏 状态 的 序列 ， 然 后 将 其 
作为 输入 给 解码 器 。 解 码 器 使 用 编码 器 的 隐藏 状态 和 先前 生成 的 标记 作为 输入 ， 
一 次 生成 一 个 输出 序列 ， 如 Transformer 的 结构 图 图 2 所 示 。 
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2.2 BERT 

BERT (Bidirectional Encoder Representations from Transformers, 来 
H Transformer 的 双向 编码 器 表征 ) 是 由 Devlin 等 人 在 2018 年 提出 的 基于 
Transformer 架构 的 预 训练 语言 模型 ”。 其 在 大 量 无 标注 的 文本 数据 上 进行 训练 ， 
使 其 能 够 学 习 高 质量 的 自然 语言 表示 。 

BERT 结构 图 如 图 3 Bras, BERT 模型 采用 Transformer 中 的 Encoder 结构 ， 
其 采用 的 自 注 意 力 机 制 对 文本 序列 进行 处 理 并 预测 ， 可 实现 下 句 预测 CNSP 等 
任务 。 

BERT 的 主要 特征 是 双向 性 ， 即 其 在 生成 一 个 词 的 表示 时 能 够 考虑 到 该 词 的 
上 下 文 ， 同 时 考虑 左边 和 右边 的 语 境 ， 从 而 产生 更 准确 的 语言 表征 。 

BERT 通常 用 于 两 个 阶段 的 过 程 : 预 训练 和 微调 。 在 预 训练 期 间 ，BERT 在 大 
量 的 未 注释 文本 数据 上 进行 训练 ， 可 以 完成 掩 码 语 言 模型 (MLM) 任务 和 下 句 预 
M CNSP) 任务 。MLM 任务 使 用 随机 屏蔽 输入 序列 中 一 定 比 例 的 标记 获得 数据 ， 并 
要 求 模 型 预测 缺失 的 标记 , 而 NSP 任务 包括 预测 原始 文本 中 两 个 句子 是 否 连续 等 
任务 。 

在 预 训练 之 后 , 可 以 通过 添加 特定 任务 的 输出 层 和 在 该 任务 的 注释 数据 上 训 
练 模型 ， 为 情感 分 析 或 文本 分 类 等 下 游 任务 进行 微调 。 以 这 种 方式 对 BERT 进行 
微调 已 被 证 明 可 以 在 广泛 的 自然 语言 处 理 任务 中 取得 较 好 结 

BERT 的 一 个 主要 优势 是 它 能 够 学 习 高 质量 的 语言 表征 ， 并 可 以 针对 广泛 的 
下 游 任务 进行 微调 ; 另 一 个 优势 是 它 能 够 对 一 个 词 的 上 下 文 进行 双向 学 习 ， 从 而 
提高 其 表征 的 准确 性 。BERT 模型 目前 已 被 广泛 用 于 情感 分 析 、 命 名 实体 识别 和 
问题 回答 等 场景 。BERT 模型 在 预 训练 和 微调 阶段 需要 大 量 的 计算 资源 ， 同 时 其 
模型 存在 解释 困难 等 问题 ， 也 使 Fine-tune 等 调试 工作 难度 增加 。 
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图 3 BERT 结构 图 图 4 GPT 结构 图 
Fig.3 Structure of BERT Fig.4 Structure of GPT 
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2.3 GPT 

GPT 的 基本 结构 由 多 层 Transformer 中 的 Decoder 结构 组 成 ， 每 个 Decoder 
包括 一 个 注意 力 机 制 (Masked Multi-head Attention) 和 一 个 全 连接 前 馈 网 络 

(Feed Forward Network)， 如 图 3 所 示 。 其 中 ， 注 意 力 机 制 是 指 每 个 输入 位 置 

的 注意 力 权 重 都 由 该 位 置 和 其 他 所 有 位 置 计算 得 到 , 这 样 可 以 同时 考虑 句子 中 所 
有 位 置 的 信息 。 注 意 力 权重 用 于 计算 输入 同 量 的 加 权 和 ， 经 全 连接 网 络 处 理 后 传 
入 下 一 步骤 。 

每 个 Decoder 的 输出 被 以 相同 的 方式 ， 作 为 输入 传 入 到 下 一 个 Decoder 中 。 
GPT 模型 的 最 后 一 层 是 一 个 Softmax 层 ， 进 行 归 一 化 ， 将 最 终 隐 藏 状态 映射 到 词 
汇 表 大 小 的 向 量 中 ， 在 概率 组 中 抽取 结果 作为 下 一 层 的 输入 (本 文中 模型 采取 
multinomial 的 方法 )。 

2.4 nanoGPT 

nanoGPT 是 GPT 模型 的 一 个 轻 量 级 实现 版 本 ， 主 要 用 于 资源 受 限 的 设备 上 
进行 文本 生成 任务 。nanoGPT 采用 了 GPT-2 的 基本 结构 ， 但 在 其 实现 过 程 中 ， 其 
采用 在 Embedding 层 后 接 入 Layer Normalization 层 ， 并 在 Feed Forward 网 络 
后 计算 加 权 和 采用 Softmax 方法 进行 归 一 ， 再 通过 Multinomial 方法 抽取 出 输 
出 ， 如 图 5 所 示 。 
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图 5 nanoGPT 结构 图 
3 本文 方法 
3.1 GPT-WP 模型 
本 研究 提出 了 一 个 基于 词 和 词性 的 联合 生成 文本 模型 GPT-WP (Word POS), 
由 两 个 预 训练 的 文本 生成 模型 组 成 , 一 个 是 基于 词 的 模型 ， 另 一 个 是 基于 词性 的 
模型 。 在 该 模型 中 ， 输 入 文本 和 通过 NLTK 标记 出 的 词性 序列 分 别 编码 并 传递 给 
两 个 模型 ， 如 图 6 所 示 。 
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图 6 GPT-WP 结构 图 
为 了 使 两 模型 可 以 协调 生成 模型 ， 预 防 语法 模型 主导 文本 生成 , 本 研究 所 提 
出 的 模型 间 采 用 残 差 相 乘 方法 进行 连接 ， 公 式 如 下 : 


P = Pyora * (L + Ppos) (6) 


其 中 ，P 为 GPT-WP 模型 得 出 的 最 终 概 率 ，Pjora 为 词 模型 输出 的 概率 ，Ppos 
为 词性 模型 输出 的 概率 。 

在 生成 新 的 单个 单词 时 ,程序 将 其 概率 值 与 其 对 应 的 词性 标记 的 概率 值 进行 
残 差 相 乘 ， 其 中 词性 标记 的 概率 值 PPos 由 词性 模型 生成 ， 词 的 概率 值 Pwora 由 词 
模型 生成 。 然 后 程序 从 加 权 相 乘 后 得 到 的 概率 值 P 中 进行 随机 抽取 ， 并 以 此 生成 
最 终 的 单个 单词 。 通 过 将 生成 的 单个 单词 添加 到 已 生成 的 文本 中 , 并 将 其 作为 新 
的 输入 文本 传递 给 下 一 个 循环 迭代 ,逐步 生成 最 终 的 文本 , 具体 流程 如 图 6 和 图 
7 ARAN. 
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7 GPT-WP 模型 中 两 模型 联合 计算 流程 图 
3.2 评价 方法 
本 文 的 评估 目的 在 于 对 基于 GPT 和 GPT-WP 的 文本 生成 数据 进行 评估 ， 并 比 
较 它们 在 文本 生成 质量 方面 的 性 能 。 本 研究 使 用 NLTK 工具 对 CNN Dailymail 数 
据 进 行 分 词 处 理 , 获得 人 工 数 据 和 输入 数据 ， 并 分 别 使 用 基于 GPT 的 传统 模型 和 


新 模型 对 输入 数据 进行 训练 和 预测 , 获得 两 个 模型 所 对 应 的 传统 GPT 模型 数据 和 
GPT-WP 模型 数据 ， 有 具体 结构 如 图 8 所 示 。 
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1) JA CNN Dailymail 数据 集中 随机 选取 部 分 样本 ,通过 NLTK 进行 分 句 , 保留 每 
个 样本 的 前 2 句 ， 组 成 新 的 数据 集 。 

2) 选取 新 数据 集 的 一 半 作 为 人 工 数据 (True Label Data) ， 将 另 一 半数 据 集中 
75% 去 除 ， 作 为 文本 生成 模型 的 输入 (False Label (input) 
Data). 

3) “将 上 述 输入 数据 (False Label (input) Data) 通过 传统 的 GPT 模型 和 GPT-WP 
模型 进行 预测 ， 对 预测 结果 进行 截断 ， 获 取 前 两 句 作 为 输出 ， 并 得 出 对 应 的 
传统 GPT 模型 生成 数据 (False Label (GPT) Data) 和 GPT-WP 模型 生成 数据 
(False Label (GPT-WP) Data). 

4) ”将 上 述 传统 CPT 模型 生成 数据 (False Label (GPT) Data) 和 GPT-WP 模型 生成 
数据 (False Label (GPT-WP) Data) 5 A at (True Label Data) 244, JÉ 
成 传统 GPT 模型 数据 集 (Dataset Original) Il GPT-WP 模型 数据 集 (Dataset 
GPT-WP) 

5) 分别 将 上 述 两 数据 集 通 过 分 割 划 分 为 训练 集 和 测试 集 ， 通 过 BERT 模型 进行 
训练 ， 得 出 对 应 的 评价 指标 。 

本 研究 采用 所 述评 估 方 法 对 生成 文本 的 质量 进行 评估 , 具体 实施 方式 是 使 用 
BERT 模型 对 原始 数据 和 生成 数据 进行 二 元 分 类 任务 ， 以 判断 文本 是 否 为 人 工 编 
写 的 。 评 估 过 程 涉及 计算 模型 的 各 项 性 能 指标 ， 如 准确 率 和 精确 率 ， 从 而 评估 其 
对 生成 文本 质量 评估 的 能 力 。 以 下 是 相关 的 公式 : 

Correct 


Acc = A (7) 


其 中 ，Acc 为 准确 率 ，Correct 为 测试 样本 中 预测 正确 的 数量 ，Al1 为 测试 样本 总 


TP 


P= TP + FP (8) 
FP 
FPR = oN + FP (9) 


其 中 , P 为 精确 率 ,， TP 为 预测 正确 的 人 工 数据 个 数 ，FP 为 预测 错误 的 生成 数据 个 
数 ，TN 为 预测 正确 的 生成 数据 个 数 。 

准确 率 4cc 衡 量 了 BERT 模型 对 于 生成 文本 与 原始 数据 正确 分 类 的 能 力 ， 精 
确 度 P 指 标 反 映 了 BERT 模型 将 生成 文本 正确 分 类 为 人 工 撰写 的 能 力 , 假 正 例 率 


FPR 通过 计算 生成 数据 中 被 判定 为 人 工 数据 的 比例 ,直接 反映 出 模型 所 生成 数据 
与 人 工 数 据 的 接近 程度 。 

4 BERT-tiny 模型 经 训练 后 在 测试 集 上 的 精确 率 忆 高 时 ， 表 明 BERT-tiny 模 
型 对 人 工 文本 寻找 特征 较 多 , 在 BERT-tiny 所 学 习 的 维度 上 ,能 更 加 准确 学 习 人 
工 文本 的 特征 ， BERT-tiny 表现 好 ， 生 成 数据 与 人 工 数据 共同 特征 较 少 ， 表 现 
更 差 。 

当 BERT-tiny 模型 经 训练 后 在 测试 集 上 的 精确 率 P 低 时 ， 表 明 BERT-tiny 模 
型 对 人 工 的 文本 寻找 特征 较 少 , 在 BERT-tiny 所 学 习 的 维度 上 , 难以 准确 学 习 人 
工 文本 的 特征 ， BERT-tiny 表现 差 ， 生 成 数据 与 人 工 数据 更 加 接近 。 

当 BERT-tiny 模型 经 训练 后 在 测试 集 上 的 假 正 例 率 FPR 低 时 ， 表 明 BERT- 
tiny 模型 对 生成 的 文本 寻找 特征 较 多 ， 具 备 较 明 显 的 生成 特征 ， 其 与 人 工 数据 
的 特征 不 符 的 更 多 ，BERT 更 易 区 分 生成 文本 与 人 工 文本 ， 在 BERT 所 学 习 的 维度 
上 ， 生 成 的 文本 与 人 工 文本 更 接近 ， 生 成 文本 效果 较 差 。 

当 BERT-tiny 模型 经 训练 后 在 测试 集 上 的 假 正 例 率 FPR 高 时 ， 表 明 BERT- 
tiny 模型 在 分 辨 生成 文本 与 人 工 文本 时 产生 更 大 困难 ， 被 标记 为 的 正 例 较 少 ， 
意味 着 模型 将 更 多 的 负 例 错误 地 预测 为 正 例 ， 表明 在 BERT 模型 的 视角 下 ，, 难以 
准确 分 辨 ， 其 具备 更 多 的 能 被 BERT 模型 寻找 到 的 生成 特征 ， 生 成 的 文本 与 人 工 
数据 更 加 接近 ， 生 成 文本 效果 较 好 。 

考虑 准确 率 Ace 的 评估 时 ， 本 研究 结合 精确 率 P 和 假 正 例 率 FPR BEAT PAT 
当 精 确 率 P 较 低 、 假 正 例 率 FPR 较 高 且 准 确 率 Ae 下 降 或 变化 不 显著 时 ,表示 被 
正确 标记 为 真实 的 正 例 较 少 。 这 意味 着 模型 将 更 多 的 负 例 错误 地 预测 为 正 例 ， 从 
BERT-tiny 模型 的 视角 来 看 ， 生 成 文本 与 人 工 文本 更 加 接近 。 反 之 ， 如 果 评 估 指 
标 显 示 相 反 的 结果 , 则 表明 生成 文本 与 人 工 文本 的 差异 较 大 , 模型 生成 效果 不 佳 。 

综 上 ， 本 研究 可 以 得 出 ， 当 BERT 模型 的 分 类 效果 相对 良好 时 ， 表 明 其 生成 
的 数据 与 真实 数据 的 差异 相对 较 小 ， 模 型 效果 相对 较 好 。 相 反 ， 当 BERT 模型 的 
分 类 效果 相对 差 时 , 表明 其 生成 的 数据 与 真实 数据 的 差异 较 大 , 模型 效果 相对 较 
差 。 这 种 评价 方法 可 有 效 评估 生成 文本 的 质量 ， 并 比较 不 同 模 型 的 性 能 。 


4 实验 结果 


4. 1 实验 数据 
CNN Dailymail 数据 集 来 源 于 CNN 和 Daily Mail 两 新 闻 网 站 ， 涵 盖 了 丰富 
的 新 闻 报道 内 容 ， 如 政治 、 经 济 、 科 技 、 娱 乐 等 领域 ""。 数 据 集 具有 较 高 的 质量 
和 多 样 性 ， 为 研究 者 提供 了 一 个 理想 的 平台 以 研究 和 测试 自然 语言 处 理 技术 。 
CNN Dailymail 数据 集 的 文本 已 经 经 过 预 处 理 ， 其 中 每 篇 文本 都 包含 标题 、 
正文 和 摘要 ， 其 中 摘要 通常 由 几 个 关键 句子 组 成 ， 用 以 概括 文本 的 主要 内 容 。 这 
种 结构 有 利于 研究 者 在 文本 摘要 任务 中 进行 有 针对 性 的 训练 和 测试 , 本 研究 中 仅 
进行 文本 续 写 任务 ， 故 只 考虑 正文 。 
4.1 词性 标注 
4.1.1 NLTK 
NLTK (Natural Language Toolkit ) 是 一 个 用 于 自然 语言 处 理 的 Python FE, 
包含 了 各 种 文本 处 理 和 分 析 工 具 。 其 中 ，NLTK 的 词性 标注 模块 提供 了 对 文本 中 
单词 进行 词性 标注 的 功能 tm 。 
在 NLTK 的 词性 标注 模块 中 ， 使 用 的 是 基于 隐 马 尔 可 夫 模 型 中 (Hidden 
Markov Model, HMM) 的 词性 标注 方法 。 该 方法 首先 对 标注 语料库 进行 统计 分 析 ， 


从 中 提取 不 同 词性 的 出 现 频 率 和 概率 信息 。 然 后, 该 方法 将 文本 中 的 每 个 单词 与 
不 同 的 词性 进行 匹配 , 计算 每 种 词性 出 现 的 概率 , 并 选取 概率 最 大 的 词性 作为 单 
词 的 标注 ”。 在 计算 概率 时 ,该 方法 会 考虑 前 一 个 单词 的 标注 信息 ， 以 提高 标注 
的 准确 性 和 连续 性 。 


表 1 词性 表 


词性 CC NNS e NNPS 


词性 含义 连词 名 词 复 数 = 专 有 名 词 复数 


本 研究 的 POS (Part-0f-Speech 词性 ) 基 于 NLTK 工具 中 的 词性 标注 序列 ， 并 
人 工 将 其 余 所 有 标点 符号 纳入 “SEP”(separate) 标签 ， 以 便于 模型 处 理 ， 可 得 
到 形 同 表 1 所 示 的 39 类 词性 序列 。 
分 词 处 理 结果 
基于 上 述 词性 标注 方法 ,本 研究 对 训练 集 和 测试 集 数据 进行 预 处 理 , 得 到 原 
台 文 本 和 与 之 对 应 的 词性 标注 序列 ， 形 如 表 2 所 示 的 词性 序列 。 
表 2 原始 文本 与 对 应 词性 


原始 文本 对 应 词性 

It ’ s official : U.S. President ... PRP VBZ JJ SEP NNP NNP ... 

( CNN ) — Usain Bolt rounded off ... SEP NNP SEP SEP VBP NNP VBD RP ... 
4. 2 数据 处 理 


本 文采 用 三 组 规模 不 同 的 数据 进行 实验 , 旨 在 全 面 评 佑 本 模型 在 不 同 数据 规 
模 下 的 实际 效果 ， 并 与 原 模型 进行 比较 , 数据 规模 如 表 3 所 示 。 实 验 基于 三 组 规 
模 不 同 的 数据 进行 训练 和 评估 ， 并 采取 8:2 的 比例 对 数据 集 进行 随机 分 割 , 分 别 
运行 10 次 ， 以 假 正 例 率 MPR 为 标准 ， 去 除 最 好 和 最 差 结 果 后 取 最 高 值 、 最 低 值 
和 平均 值 作为 结果 数据 。 


表 3 数据 规模 


训练 集 大 小 测试 集 大 小 训练 轮 次 
1600 400 5 
16000 4000 1 
32000 8000 1 

4. 3 实验 结果 


4. 3. 1 续 写 结果 

通过 表 4 中 的 两 个 例子 ， 可 以 比较 和 分 析 GPT-WP 模型 和 GPT 模型 产 出 的 续 
写 结果 ， 总 结 GPT-WP 模型 的 表现 。 

在 第 一 个 例子 中 , GPT-WP 模型 生成 的 文本 在 语义 上 比 原 模型 更 加 连贯 ,例如 ， 
“he is the first to have the best to play in his own world of his own 
world history” 这 一 句 ， 尺 管 有 一 些 词语 重复 ， 但 整体 语义 比 GPT 模型 生成 的 
“he is the first person in his career and he is the only one in two 
days to have the same” 要 更 加 清晰 。 第 二 个 例子 中 的 表现 也 是 类 似 。 

在 第 二 个 例子 中 ，GPT-WP 模型 生成 的 文本 更 好 地 理解 和 保留 了 输入 文本 的 
上 上 下文。 例如 ， 续 写 文 本 中 的 “dched the first day in a year and was a 
good person , and he has a great time in his own world”, XT John 
Schneider 对 于 Jimmie 的 评价 ， 与 输入 文本 的 情感 色彩 相 一 致 。 而 GPT 模型 生 
成 的 文本 在 这 方面 表现 得 相对 较 弱 。 


X 4 输入 输出 对 比 


输入 文本 GPT 模型 续 写 文本 GPT-WP 模型 续 写 文本 
The newspaper says is has a great experience in his own has a great experience in his own world , 


wearing latex gloves and 


carrying a black sack . He 


` I laughed and learned more 
from Jimmie in one hour than 
from anyone else in a whole 


John 


" 


year co-star 
Schneider , who played Bo 
Duke , said on Twitter | 


Give Uncle 


world , but it is not the most of a big 
part in his career , and that he is the 
first person in his career and he is 
the only one in two days to have the 
same . 

" last week ' last month 'dched the 
first day in a year and was a good 
person , and he has a great time in 
his own world , but it is not the best 
part in his career , and that he is now 
in his own position , but it is a good 


time . 


but it is not the most of a big part in his 
career , and that he is the first to have the 
best to play in his own world of his own 
world history , but it is not the most 
difficult time to get the best . 

"last week ' last month 'dched the first day 
in a year and was a good person , and he 
has a great time in his own world , but it 
is not the best part in his career , and that 
he is now in his own position , but it is a 


very important way for us ." 


总 的 来 说 , GPT-WP 模型 在 语义 连贯 性 和 上 下 文 感知 能 力 方面 都 表现 出 优越 性 ， 


使 得 生成 的 文本 更 具有 阅读 性 和 至 


EEE. 然而, 仍 需 注意 模型 在 生成 过 程 中 存在 


重复 词语 和 词组 的 问题 ,在 一 定 程度 上 影响 了 输出 文本 的 质量 。 在 后 续 的 模型 训 
练 和 优化 过 程 中 ， 这 是 后 续 可 以 改进 的 问题 。 


4. 4. 2 评估 结 


在 三 组 不 同 规 模 的 数据 集 上 进行 实验 ， 结 果 如 表 5 所 示 ， 最 优 结果 已 加 粗 。 


表 5 数据 规模 

数据 规模 模型 = : = 
Average Best Worse Average Best Worse Average Best Worse 
Si GPT 72.91% 63.75% 52.50% 72.62% 57.60% 88.89% 26.42% 71.43% 0.49% 
GPT-WP 59.06% 50.00% 73.00% 54.61% 49.62% 64.69% 80.60% 98.52% 52.71% 
GPT 85. 90% 88.18% 82.13% 86.42% 86.28% 85.12% 14.29% 15.37% 14.60% 
ki GPT-WP 86.61% 86.50% 87.43% 85.29% 84.08% 86.88% 16.29% 18.20% 14.19% 
GPT 92.92% 93.19% 93.27% 91.71% 91.13% 92.82% 8.52% 9.29% 7.24% 
GPT-WP 92.88% 92.96% 92.04% 91.10% 90.10% 92.00% 9.27% 10.59% 7.99% 


1， 精 确 率 

P 度 量 的 是 正 例 (被 识别 为 人 工 数据 的 文本 ) 的 样本 中 被 预测 为 正 例 的 比例 ， 
即 BERT 模型 对 人 工 数 据 的 判别 能 
在 2000 个 样本 的 数据 集中 ,GPT 模型 的 平均 精确 率 为 78. 0490, 而 GPT-WP 模 
型 的 精确 率 为 54. 61%。 这 意味 着 在 这 个 相对 较 小 的 数据 集中 ，BERT 模型 在 区 分 
FH GPT 和 人 工 生成 的 数据 时 表现 得 更 好 ， 对 分 类 模型 的 误导 性 较 小 ， 这 表明 GPT 
模型 在 文本 生成 方面 的 能 力 相 对 较 弱 。 从 最 优 和 最 差 的 精确 率 来 看 ，GPT 模型 分 
别 达 到 了 57. 60% 和 88. 89% 的 精确 率 , 都 超过 了 GPT-WP 模型 在 最 优 和 最 差 情况 下 
的 49. 62% 和 64. 69% 的 精确 率 。 

然而 , 当 数 据 集 扩大 到 20000 个 样本 时 , 两 者 的 平均 精确 率 都 有 所 提升 。GPT 
模型 的 平均 精确 率 提升 至 86. 42%， 而 GPT-WP 模型 的 精确 率 提升 至 85. 29%。 尽 管 
两 者 的 精确 率 非 常 接近 , 但 GPT 模型 的 精确 率 仍然 略 高 。 在 最 优 和 最 差 的 精确 率 
方面 ， 两 个 模型 的 表现 几乎 相同 。 
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图 9 在 不 同 数据 集中 的 BERT-tiny 模型 精确 率 

当 数 据 集 进一步 扩大 到 40000 个 样本 时 ，GPT 模型 的 平均 精确 率 提 升 至 
91.71%， 而 GPT-WP 模型 的 精确 率 为 91. 10%， 两 者 之 间 的 差距 缩小 。 在 最 优 和 最 
差 的 精确 率 方面 ，GPT 模型 仍然 稍 高 ， 其 最 优 和 最 差 的 精确 率 分 别 为 91. 13% 和 
92. 82%， 相 比 之 下 ，GPT-WP 模型 的 最 优 和 最 差 的 精确 率 为 90. 10% 和 92. 00%. 

结合 上 述 数 据 集 的 情况 ,无论 是 在 较 小 或 较 大 的 数据 集 上 ，GPT 在 精确 率 上 
的 表现 都 高 于 GPT-WP。 这 表明 在 GPT 与 人 工 模型 组 成 的 数据 集 上 ，BERT 模型 对 
人 工 数 据 分 类 准确 率 更 高 , 表明 了 GPT 模型 在 文本 生成 的 能 力 相 对 较 弱 。 当 数据 
集 大 小 增加 时 ，GPT 和 GPT-WP 的 精确 率 都 有 所 提升 ， 但 GPT 模型 的 精确 率 仍 高 
于 GPT-WP 模型 。 

2， 假 正 例 率 

假 正 例 率 FPR 是 一 项 关键 的 性 能 指标 , 主要 度量 了 模型 生成 的 文本 被 错误 地 
识别 为 人 工 生 成 的 比例 。 
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图 10 不 同 数据 集 上 的 BERT-tiny 模型 假 正 例 率 

本 研究 的 主要 推论 在 于 ， 假 正 例 率 的 增加 意味 着 BERT-tiny 模型 将 更 多 的 模 
型 生成 数据 判定 为 人 工 生 成 , 这 一 现象 表明 模型 生成 的 特征 在 更 大 程度 上 接近 人 
工 数据 。 这 种 接近 程度 使 得 模型 生成 的 数据 更 难以 被 区 分 为 机 器 生成 ， 从 而 间接 
反映 了 模型 生成 文本 的 复杂 性 和 逼真 程度 。 因 此 ， 一 个 更 高 的 假 正 例 率 表示 生成 
的 文本 被 错误 判定 为 人 工 数 据 的 比例 增加 , 这 可 以 被 视 为 模型 生成 文本 与 人 工 文 
本 接近 程度 的 一 个 指标 。 在 本 研究 中 模型 实验 表现 可 以 参考 图 10。 

在 包含 2000 个 样本 数据 集 的 实验 中 ,GPT-WP 的 平均 假 正 例 率 为 80. 60%， 显 
著 高 于 GPT 模型 的 26. 42%。 此 外 ， 无 论 是 98. 52% 的 最 佳 假 正 例 率 还 是 52. 71% 的 
最 差 假 正 例 率 上 ，GPT-WP 都 明显 超过 了 GPT 模型 。 

在 包含 20000 个 样本 数据 集 的 实验 中 , 除 最 差 假 正 例 率 略 低 以 外 , GPT-WP 模 
型 在 平均 和 最 佳 假 正 例 率 上 显著 高 于 GPT 模型 。 在 40000 个 样本 的 数据 集中 ， 
GPT-WP 的 平均 假 正 例 率 为 9. 27%， 相 比 GPT 模型 的 8. 52%， 增 长 了 0.71 个 百 分 
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点 。 在 最 佳 和 最 差 假 正 例 率 上 ，GPT-WP 仍然 优 于 GPT 模型 。 这 些 数据 进一步 验 
证 了 GPT-WP 模型 在 生成 文本 逼真 性 上 优 于 GT 模型 的 假设 。 

更 高 的 假 正 例 率 说 明 GPT-WP 生成 的 文本 更 能 混淆 分 类 模型 , 使 得 BERT 模型 
更 难以 识别 出 这 些 文本 是 由 机 器 生成 的 。 综 合 以 上 三 个 数据 集 的 实验 数据 ,本 研 
AIERT GPT-WP 模型 在 生成 文本 的 能 力 优 于 GPT 模型 。 

3. 准确 率 

准确 率 4cc 是 衡量 模型 预测 正确 性 的 总 体能 力 的 关键 指标 。 这 是 一 个 全 局 性 
指标 ， 体 现 了 BERT 模型 对 所 有 类 别 预测 的 正确 程度 ， 在 本 实验 场景 中 ， 类 别 即 
机 器 生成 的 文本 和 人 工 生成 的 文本 ， 准 确 率 表现 如 图 11 所 示 ， 其 中 最 好 和 最 差 
结果 以 FPR 作为 指标 进行 第 选 。 
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图 11 不 同 数据 集 上 的 BERT-tiny 模型 准确 率 

在 包含 2000 个 样本 数据 集 的 实验 中 ，GPT 模型 的 平均 准确 率 为 72. 91% 显 著 
高 于 GPT-WP 模型 的 准确 率 平均 值 59. 06%。 在 最 佳 情 况 下 ，GPT 模型 的 准确 率 为 
63. 75%， 而 GPT-WP 模型 的 最 佳 准 确 率 为 50. 00%， 在 最 差 情况 下 ，GPT 模型 为 
52. 50%， 其 情况 相 比 GPT-WP 较 好 。 这 一 结果 反映 出 GPT-WP 模型 能 够 对 BERT 模 
型 的 特征 提取 造成 困难 , 使 其 准确 率 大 幅 下 降 。 在 包含 20000 个 样本 数据 集 的 实 
验 和 包含 40000 个 样本 数据 集 的 实验 上 ,两 个 模型 的 准确 率 趋 于 相等 , 稳健 性 也 
更 佳 ， 但 两 者 差距 不 大 。 

结合 上 述 数据 集 的 情况 准确 率 的 结果 显示 ， 在 小 型 和 大 型 数据 集 上 ，GPT 模 
型 的 预测 准确 性 较 高 , 而 在 中 型 数据 集 上 差距 则 不 大 。 在 实验 中 , GPT-WP 模型 相 
比 GPT 模型 极 值 差异 更 大 , 这 可 能 表明 BERT 模型 在 二 分 类 任务 上 受到 GPT-WP 模 
型 干扰 较 大 ， 使 其 特征 捕捉 不 稳定 ， 准 确 率 波动 大 ， 仍 需 结 合 精确 率 和 假 正 例 率 
进一步 分 析 。 

4， 实 验 总 结 

在 针对 包含 2000 个 样本 的 数据 集 进 行 的 分 析 中 ， 当 数据 量 相对 较 小 时 ， 
BERT-tiny 模型 经 过 5 个 epoch 的 训练 后 ， 其 准确 性 与 GPT-WP 模型 相 比 并 无 显 
著 差 异 。 然 而 ，GPT-WP 模型 在 精确 性 的 降低 以 及 假 正 例 率 的 提高 方面 表现 更 为 
显著 。 这 一 现象 显示 ， 与 CPT 模型 生成 的 数据 相 比 ，GPT-WP 模型 所 生成 的 数据 
被 错误 地 判断 为 人 工 数据 的 比例 提高 了 ， 表 明了 GPT-WP 模型 所 生成 的 数据 质量 
相对 原始 GPT 模型 更 高 。 

在 对 包含 20000 个 样本 的 数据 集 和 包含 40000 个 样本 的 数据 集 的 分 析 中 , 这 
两 个 数据 集 的 规模 较 大 ，BERT-tiny 模型 仅 经 过 一 个 epoch 的 训练 就 能 够 获得 较 
高 的 准确 率 和 精确 率 ,， 这 表明 BERT-tiny 模型 的 内 部 参数 得 到 了 充分 的 学 习 ,， 并 
且 对 于 生成 的 文本 特征 和 人 工 数据 特征 有 着 更 好 的 理解 .这 一 结果 突出 了 参数 量 


规模 效应 的 影响 力 。 然 而 , 即使 在 这 种 情况 下 ,GPT-WP 模型 生成 的 文本 被 误 认 为 
人 工 数据 的 比例 仍然 存在 上 升 的 趋势 。 因此， 本 研究 在 大 样本 数据 集 上 进行 的 研 
究 进 一 步 证 明 ，GPT-WP 模型 相对 于 传统 的 GPT 模型 在 文本 生成 方面 具有 优势 。 

综合 来 看 ，BERT-tiny 模型 在 处 理由 传统 GPT 模型 生成 的 数据 集 时 ， 其 精 负 
性 和 对 负 样 本 的 识别 能 力 都 表现 出 优秀 的 效果 ， 而 GPT-WP 模型 生成 的 数据 集 在 
识别 真正 例 样本 方面 表现 出 更 好 的 结果 ,并且 假 正 例 率 有 较 显 著 的 提升 。 基 于 对 
三 种 规模 实验 的 研究 ， 本 研究 认为 ， 与 传统 的 GPT 模型 相 比 ，GPT-WP 模型 生成 
的 文本 在 与 人 工 数据 相似 性 方面 表现 出 一 定 的 优势 。 

5 总 结 

本 研究 提出 了 一 种 基于 词 与 词性 的 联合 文本 生成 模型 ，GPT-WP, 该 模型 由 词 
级 模型 和 词性 级 模型 共同 构成 。 通 过 将 输入 的 文本 及 其 词性 序列 分 别 编码 并 输入 
到 两 个 模型 中 ， 使 得 生成 的 单词 更 加 符合 其 语 境 语义 。 相 较 于 传统 的 GPT 模型 ， 
GPT-W 模型 产生 的 文本 更 接近 人 工 撰写 的 文本 ， 在 准确 率 、 精 确 率 及 假 正 例 率 等 
评价 指标 方面 表现 出 优势 。 

在 评估 方法 方面 ， 本 研究 提出 并 采用 了 一 种 创新 性 的 方法 ， 即 利用 BERT 模 
型 对 生成 文本 的 质量 进行 评估 ,并 通过 准确 率 、 精 确 率 和 假 正 例 率 等 指标 对 模型 
性 能 进行 量化 评价 。 与 传统 评估 方法 不 同 ,， 本 研究 将 原始 数据 与 生成 数据 进行 二 
分 类 任务 ,判断 文本 是 否 为 人 工 编写 ， 从 而 评估 生成 文本 的 质量 。 这 种 评估 方法 
的 创新 之 处 在 于 , 它 能 够 在 大 规模 生成 任务 中 更 加 准确 地 评估 生成 文本 的 真实 性 
和 质量 ， 以 及 更 好 地 满足 实际 应 用 场景 的 需求 。 

综 上 , 本 研究 提出 的 基于 词汇 与 词性 的 联合 文本 生成 模型 在 生成 质量 上 取得 
一 定 的 成 果 , 结合 创新 的 评估 方法 , 为 自然 语言 处 理 领 域 的 文本 生成 任务 提供 一 
种 新 的 解决 方案 ， 并 为 后 续 研 究 提 供 参 考 。 
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